Warsztaty badawcze - praca domowa 3

Ceteris Paribus

Zbiór danych:

Wykorzystamy zbiór danych medycznych UCI Heart Disease, który zawiera wiek, płeć oraz wyniki badań medycznych pacjenta. Targetem jest ocena występowania wieńcowej choroby serca poprzez ocenę zwężenia naczyń wieńcowych (brak choroby - 0, choroba - 1). Zmienne kategoryczne (cp, thal oraz slope) zostały przetworzone za pomocą One-hot encoding, stąd w ramce danych pojawiły nam się zmienne z indeksami (np. thal_fd, thal_rd, thal_n).

Model:

Jako model wykorzystany zostanie Random Forest.

Część 1: Predykcja i jej dekompozycja dla wybranej obserwacji.

Sprawdźmy jak działa nasz explainer w praktyce. Wybierzmy pierwszą obserwację w zbiorze danych oraz wyliczmy dla niej predykcję modelu.

Charakterystyka wybranego pacjenta (kilka wyróżniających się zmiennych):

Po przyjrzeniu się danym możemy przypuszczać, że mężczyzna ten posiada chorobę wieńcową. Wartość targetu = 1 potwierdza nasze przypuszczenia.

Predykcja modelu wynosi natomiast około 0.758.

Profil Ceteris Paribus dla tej obserwacji:

Wnioski:

Część 2: Dwie obserwacje ze zbioru danych, które mają różne profile CP.

Pierwszą obserwacją będzie ta analizowana wyżej. Postaramy znaleźć się taką obserwację, której profil CP będzie się różnić od poprzedniej.

Charakterystyka wybranego pacjenta (kilka wyróżniających się zmiennych):

Profil Ceteris Paribus dla tej obserwacji:

Wnioski (wskazanie najważniejszych różnic pomiędzy profilami CP):

Część 3: Podsumowanie.